中位数 - 简单教程与示例
作者:Ruben Geert van den Berg,归属于 统计 A-Z
对于奇数个数值,中位数是所有数值排序后的中间值。对于偶数个数值,中位数是所有数值排序后中间两个数值的平均值。以下来自 这个 Googlesheet (只读) 的示例将使这一点非常清楚。
中位数 - 简单数据示例
- V1 包含按升序排序的 1 到 5 的值。中位数 - 中间值 - 是 3。
- V2 包含按升序排序的 1 到 6 的值。中位数是 3.5。它是中间两个值 3 和 4 的平均值。
- V3 是 V2,其中 6 被替换为 100。这极大地影响了均值,但中间两个值 - 因此中位数 - 保持不变。
- V4 包含 V3 的值,顺序随机。除非我们首先对它们进行排序,否则中位数不是中间两个值的平均值。
- V5 包含重复值:值 1 出现 5 次。由于这些值已排序,因此中位数是中间两个值(1 和 1)的平均值。
请注意,对于 V2 到 V4,中位数是将 50% 最高值与 50% 最低值分开的值。这适用于我们在真实世界数据中找到的大多数(半)连续变量,例如:
- 以美元为单位的每月确切收入,
- 以克为单位的体重,或者
- 以天为单位的年龄。
但是,对于大量重复数据(如 V5)或少量观测值,这可能根本不成立。
中位数与均值的关系
我们稍后将讨论中位数与均值的优缺点。让我们首先看看它们之间的关系。这主要取决于某个变量的频率分布的 偏度 (Skewness):对于对称分布的变量,中位数等于均值,这意味着偏度 = 0。下图说明了这一点。
对于这 1,000 个测试分数,偏度基本上为零。样本均值 (M) = 50.8,而中位数 (Me) = 51.0。指示它们在 x 轴上的红线无法区分。当偏度很大时,会出现不同的模式。首先,对于正偏变量,中位数小于均值,如下所示。
这里发生的事情基本上是,一些非常高的分数会影响均值,但不影响中位数。我们已经在最初的示例中看到了这一点:将 {1,2,3,4,5,6} 更改为 {1,2,3,4,5,100} 会极大地影响均值,但两个变量的中位数均为 3.5。上面的直方图显示了完全相同的现象,但它使用了更真实的数据。正如您现在可能猜到的那样,相反的情况也成立:对于负偏变量,中位数大于均值,如下图所示。
这里发生的事情基本上是,非常低的分数“拉低”了均值。但是,中位数不受这些影响。
中位数的优势与劣势
到目前为止,本介绍隐含地指出了中位数与均值相比的一些优势:
- 中位数对 异常值 (Outliers) 不敏感。因此,由于某个亿万富翁的存在,某些人的平均工资可能很高。在这种情况下,我宁愿知道中位数工资。这将告诉我(大致)哪个工资将 50% 最低收入与 50% 最高收入分开。这是这些人倾向于赚取的更现实的估计。
- 均值仅适用于定量变量。中位数也适用于有序变量 (Ordinal variables)。但是,有序变量通常具有大量的重复值(多次出现的值)。对于此类变量,中位数可能会产生误导,如下所示。
尽管教师 B 的评价比教师 A 好得多,但他们的中位数评价是相同的。
除了这些优势之外,中位数也有一些劣势:
- 中位数不适用于数值计算。例如,可以从均值和样本大小计算总和,但不能从中位数计算总和。两个均值之间的差异很容易解释,但两个中位数之间的差异却很难解释。
- 在存在重复值的情况下,非常不同的变量可能具有相似的中位数。
- 中位数可能实际上并不存在。例如,如果两个人有 0 个和 1 个孩子,那么他们的中位数是 0.5 个孩子。
- 据说中位数在样本之间的波动比均值更大。也就是说,它不太稳定并且具有更大的标准误差。
在 Googlesheets 中查找中位数
使用 Googlesheets 查找中位数非常容易。例如,在任何单元格中键入 =MEDIAN(B2:B7)
将得到单元格 B2 到 B7 的中位数(假设所有非空单元格都包含数字)。此 Googlesheet(只读)中显示了更多示例。
在 SPSS 中查找中位数
在 SPSS 中,找到中位数的最佳方法是从 A nalyze(分析) C ompare Means(比较均值)
M eans(均值) 。使用此对话框创建一个表格,显示各种描述性统计信息,包括均值、标准差、偏度、峰度等。可以选择为由“Independent List(独立列表)”定义的单独组报告这些信息。
一个更快的选择是键入并运行生成的 语法 (Syntax) - 一个简单的 MEANS 命令 - 例如:
means v1 to v5
/cells count mean median.
下面显示了生成的表格的示例 - 经过一些调整后。
请注意偏度和(均值 - 中位数)之间的巨大正 相关性 (Correlation):变量的负(左)偏度越大,中位数就越大。对于正(右)偏变量,则出现相反的模式 - 均值大于中位数。这之前已通过一些基于与此表相同的数据文件的直方图进行了说明。
中位数的统计显著性 - 符号检验
最流行的统计技术之一是 t 检验 (t-tests)。这些检验检验两个均值之间的差异是否具有 统计显著性 (Statistical significance)。但是,如果我们想检验中位数而不是均值怎么办?在这种情况下,我们将得到 3 个中位数检验之一,有时称为 符号检验 (sign tests):
- 单样本中位数符号检验 (Sign test for 1 median) 类似于 单样本 t 检验 (one sample t-test) 用于中位数:它将样本中位数与假设值进行比较。
- 独立样本中位数符号检验 (Sign test for independent medians) 类似于 独立样本 t 检验 (independent samples t-test) 或 单因素方差分析 (one-way ANOVA) 用于中位数:它检验 2 个或多个总体是否具有相等的中位数。
- 配对样本中位数符号检验 (Sign test for related medians) 类似于 配对样本 t 检验 (paired samples t-test) 用于中位数:它检验在相同人员或其他观测值上测量的 2 个变量是否具有相等的中位数。
单样本中位数符号检验基本上是这样工作的:
- 每个小于假设中位数的值都替换为减号 (-);
- 大于假设中位数的值都替换为加号 (+);
- 如果假设的中位数是正确的,那么所有符号中大约 50% 应该是加号;
- 二项检验 (Binomial test) 检验样本中加号的比例是否与 0.5 显着不同。
其他符号检验遵循相同的基本原理。符号检验不是很流行,因为重复值对它们来说是有问题的,并且它们往往具有较低的 统计功效 (Statistical power)。